This work provides a Deep Reinforcement Learning approach to solving a periodic review inventory control system with stochastic vendor lead times, lost sales, correlated demand, and price matching. While this dynamic program has historically been considered intractable, our results show that several policy learning approaches are competitive with or outperform classical methods. In order to train these algorithms, we develop novel techniques to convert historical data into a simulator. On the theoretical side, we present learnability results on a subclass of inventory control problems, where we provide a provable reduction of the reinforcement learning problem to that of supervised learning. On the algorithmic side, we present a model-based reinforcement learning procedure (Direct Backprop) to solve the periodic review inventory control problem by constructing a differentiable simulator. Under a variety of metrics Direct Backprop outperforms model-free RL and newsvendor baselines, in both simulations and real-world deployments.
translated by 谷歌翻译
多种植者概率的时间序列预测对现实世界的任务(例如需求预测)具有广泛的适用性。神经时间序列的最新工作预测主要关注SEQ2SEQ架构的使用。例如,MQtransFormer(MQCNN的改进)显示了概率需求预测中最新的性能。在本文中,我们考虑通过添加跨实体注意机制以及检索机制来选择要参加哪些实体,从而通过添加跨实体注意机制来提高模型性能。我们演示了我们的新神经体系结构MQRETNN如何利用整个人群的基线模型的编码环境来提高预测准确性。使用MQCNN作为基线模型(由于计算限制,我们不使用MQtransFormer),我们首先在较小的需求预测数据集上显示,通过添加交叉实体注意机制可以提高测试损失约3%每个实体都参加人口中的所有其他实体。然后,我们通过提议的检索方法评估模型 - 作为大规模需求预测应用,用超过200万种产品的大规模需求预测应用,并观察到MQCNN基线的绩效增长约1%。
translated by 谷歌翻译
我们提出Dave Aquatic Virtual Environals(Dave),这是用于水下机器人,传感器和环境的开源仿真堆栈。传统的机器人模拟器并非旨在应对海洋环境带来的独特挑战,包括但不限于在空间和时间上变化的环境条件,受损或具有挑战性的感知以及在通常未探索的环境中数据的不可用。考虑到各种传感器和平台,对于不可避免地抵制更广泛采用的特定用例,车轮通常会重新发明。在现有模拟器的基础上,我们提供了一个框架,以帮助加快算法的开发和评估,否则这些算法需要在海上需要昂贵且耗时的操作。该框架包括基本的构建块(例如,新车,水跟踪多普勒速度记录仪,基于物理的多微型声纳)以及开发工具(例如,动态测深的产卵,洋流),使用户可以专注于方法论,而不是方法。比软件基础架构。我们通过示例场景,测深数据导入,数据检查的用户界面和操纵运动计划以及可视化来演示用法。
translated by 谷歌翻译
该手稿解决了预测出院后全因住院再入院或死亡的同时问题,并量化放电放置在防止这些不良事件中的影响。为此,我们开发了一个固有的可解释的多级贝叶斯建模框架,该框架灵感来自重新激活的深神经网络的分段线性。在生存模型中,我们明确调整了混淆,以量化局部平均治疗效果以进行放电的干预措施。从2008年和2011年开始,我们对5%的Medicare受益人样本进行了培训,然后在2012年的索赔中测试了该模型。该模型对30天全因素外的再选中(使用官方CMS方法定义)的分类精度进行了评估,该模型对XGBoost,Logistic回归(功能工程后)和对同一数据进行训练的贝叶斯深神经网络的执行方式相似。该模型对30天的分类任务进行了预测的30天分类任务,该任务是使用剩下的未来数据进行测试,该模型的AUROC约为0.76,AUPRC约为0.50(相对于测试数据中的总体阳性速率),AUPRC的AUPRC达到了约0.76,而AUPRC的AUPRC则达到了AUPRC,则获得了AUPRC。证明人们不需要为准确性而牺牲可解释性。此外,该模型的测试AUROC为0.78,分类为90天全因素外再入院或死亡。我们很容易地凝视着我们固有的可解释模型,总结了其主要发现。此外,我们演示了Black-box Perthoc解释器工具的形状如何生成不受拟合模型支持的解释 - 如果以面值为单位,则没有提供足够的上下文来使模型可操作。
translated by 谷歌翻译
深度自身偏移通常具有监督或对抗的损失,以学习具有所需性质的潜在表示,例如对敏感变量的标签和结果或公平的更大预测性。尽管受到监督和对抗性深度潜在因子模型的难以致力于,但这些方法应该表现出更简单的线性方法在实践中优选的改进。这需要可重复的线性模拟,仍然遵守增强监督或对抗目标。我们通过提出使用监督或对冲目标的主成分分析(PCA)目标的方法来解决该方法论差距,并提供分析和可重复的解决方案。我们在开源Python软件包中实现这些方法,AugmentedPCA,可以生产出色的真实基础。我们证明了这些因子模型在开源的RNA-SEQ癌症基因表达数据集上的效用,表明增强具有监督目标,提高下游分类性能,产生具有更大级别保真度的主要成分,并有助于鉴定对齐的基因利用具有对特定类型癌症的发展的主要数据差异轴。
translated by 谷歌翻译
传统的因果推理方法利用观察性研究数据来估计潜在治疗的观察到的差异和未观察到的结果,称为条件平均治疗效果(CATE)。然而,凯特就对应于仅第一刻的比较,因此可能不足以反映治疗效果的全部情况。作为替代方案,估计全部潜在结果分布可以提供更多的见解。但是,估计治疗效果的现有方法潜在的结果分布通常对这些分布施加限制性或简单的假设。在这里,我们提出了合作因果网络(CCN),这是一种新颖的方法,它通过学习全部潜在结果分布而超出了CATE的估计。通过CCN框架估算结果分布不需要对基础数据生成过程的限制性假设。此外,CCN促进了每种可能处理的效用的估计,并允许通过效用函数进行特定的特定变异。 CCN不仅将结果估计扩展到传统的风险差异之外,而且还可以通过定义灵活的比较来实现更全面的决策过程。根据因果文献中通常做出的假设,我们表明CCN学习了渐近捕获真正潜在结果分布的分布。此外,我们提出了一种调整方法,该方法在经验上可以有效地减轻观察数据中治疗组之间的样本失衡。最后,我们评估了CCN在多个合成和半合成实验中的性能。我们证明,与现有的贝叶斯和深层生成方法相比,CCN学会了改进的分布估计值,以及对各种效用功能的改进决策。
translated by 谷歌翻译